Deutscher Wortschatz im Internet

نویسنده

  • Uwe Quasthoff
چکیده

Die mittlerweile vorliegende Datensammlung, die momentan sicher eine der umfangreichsten frei zugänglichen Datensammlungen zur deutschen Sprache ist, entstand Anfang der 90er Jahre mit einer Wortliste mit sporadisch vorhandenen Angaben zu Grammatik und Sachgebiet. Diese war angelegt worden, da damals ein allgemeiner Mangel an frei verfügbaren maschinenlesbaren Daten zum deutschen Wortschatz bestand. Anliegen der damals begonnenen Sammlung war und ist, verfügbare Daten zunächst zu sammeln und sie (sobald wie möglich) zu nutzen, um fehlende Angaben zu ergänzen und eventuelle Fehler zu beseitigen. Dazu bietet sich speziell die Redundanz an, die in einer so großen Sammlung zu finden ist. Hier erweist sich auch die Sammlung von Vollformen als günstig, da bei einer späteren Reduktion auf Grundformen die Menge der flektierten Formen zu einer Grundform die korrekte Erkennung dieser Grundform erleichtert. Ebenso läßt sich dann das korrekte Flexionsschema leichter erkennen bzw. überprüfen. Nachdem lange mit verschiedenen Wortlisten gearbeitet worden war, wurde 1994 auf ein relationales Datenbanksystem umgestellt, um eine einfachere Datenverwaltung und einheitliche Zugriffsmöglichkeiten zu bekommen. Schnell stellte sich heraus, daß bei einigen so gesammelten Wörtern für den Betrachter im nachhinein nicht festgestellt werden kann, ob es sich um ein fehlerhaft geschriebenes Wort, einen Eigennamen oder vielleicht einen ihm unbekannten Fachbegriff handelt. Um solche Fragen wenigstens in der überwiegenden Mehrzahl der Fälle klären zu können, wurde ab ca. 1996 zusätzlich für jede neue Wortform ein Belegsatz gesammelt. Dazu wurde ein eigener Satzsegmentierer entwickelt (s. u.). Das Vorhandensein der Beispielsätze wiederum ermöglicht Untersuchungen von Kollokationen. Erste Versuche sahen sehr erfolgversprechend aus, allerdings war das verwendete Material an Beispielsätzen nicht repräsentativ, da immer nur Sätze mit neuen Wörtern gesammelt wurden. Deshalb wurde 1998 dazu übergeFachbeiträge

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Die Wortschatz-Methode als netzbasierte Kreativitätstechnik in einer virtuellen Lernumgebung

Zusammenfassung Die vorgestellte Kreativitätstechnik Wortschatz-Methode unterstützt mit automatisch generierten Assoziationen und Begriffen die Erarbeitung eines Themas. Sie lässt sich in unterschiedlichen betrieblichen und universitären Zusammenhängen, z.B. beim netzbasierten Lernen, sinnvoll zur Kreativitätsförderung einsetzen. Als Informationsquelle dient die Datenbank „Deutscher Wortschatz“...

متن کامل

Vererbungsalgorithmen von semantischen Eigenschaften auf Assoziationsgrafen und deren Nutzung zur Klassifikation von natürlichsprachlichen Daten

Zusammenfassung: Das Ziel dieser Arbeit ist es, auf der Grundlage der im Projekt "Deutscher Wortschatz" generierten Assoziationsgrafen zwischen einer Wortform und ihren Satzkookkurenzen, ein allgemeines Verfahren zu entwickeln, mit welchem Wortformen disambiguiert und für eine automatische Sachgebietszuweisung genutzt werden können. In diesem Aufsatz werden die wichtigsten Kernaussagen genannt ...

متن کامل

Häufigkeitsverteilung deutscher Morpheme

Bisher bezogen sich Angaben zum Wortschatz einer Sprache meist auf Wortformen und basierten auf Korpora, die möglichst balanciert und repräsentativ sein sollten. Die vorliegende Untersuchung betrachtet neben der Verteilung der Wortformen auch die der Morpheme und Allomorphe, basierend auf einer regelgesteuerten automatischen Wortformerkennung (DMM). Die Morphemverteilung in einem klassischen Ko...

متن کامل

Wissensextraktion durch linguistisches Postprocessing bei der Corpusanalyse

Durch Analyse sehr großer Textdatenbestände, die sowohl auf Datenträgern (CD ROM) bereitstanden, als auch durch Suchagenten aus dem World Wide Web zusammengestellt wurden, konnten in den vergangenen Jahren im Rahmen des Projektes „Deutscher Wortschatz“ am Institut für Informatik der Universität Leipzig mehrere umfangreiche monolinguale Corpora aufgebaut werden (vgl. Quasthoff, 1998b,a). Dabei l...

متن کامل

Bewertung der Internetpräsenzen deutscher Lebensmittelhersteller

Lebensmittelhersteller sind auf den wachsenden Exportmarkt angewiesen, um weiterhin erfolgreich sein zu können. Um das internationale Geschäft aussichtsreich weiterzuentwickeln, ist die Präsenz im Web 2.0 wichtig. Dem Internet fällt dabei die Aufgabe zu, die Unternehmen und die angebotenen Produkte ansprechend, informierend und verständlich darzustellen. Bislang ist noch nicht vertiefend analys...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • LDV Forum

دوره 15  شماره 

صفحات  -

تاریخ انتشار 1998